查看原文
其他

一名莱菔,有红白二种,四时皆可栽,怎样都好吃……

2017-09-12 大项目部-王崇志 华大科技BGITech


180+篇植物基因组文章解读大全

第二章十字花科


地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。


10、白萝卜

莱菔又名萝卜,属十字花科,在冬天里是家家户户饭桌上的常客,萝卜炖排骨、萝卜糕、酱萝卜……各种方法烹煮都好吃。《如皋县志》载:“一名莱菔,有红白二种,四时皆可栽”,其中白萝卜在中国民间素有“小人参”的美称,【地表最强植物植物基因组】结束了第一章茄科的解读,接下来将为大带来的是第二章十字花科,首篇便是萝卜


萝卜是最古老的栽培作物之一,也是东亚非常重要的蔬菜。其作为蔬菜部分的根在尺寸和形状方面有着很大变异。有的作为蔬菜,有的作为水果,还可产油,流行用于色拉中。十字花科已发表物种间共线性复杂,而禾本科和茄科要保守得多。尽管中国大白菜基因组已经发表,但不适合用作萝卜的参考序列。

文献题目: Draft Sequences of the Radish (Raphanus sativus L.) Genome


发表期刊: DNA Research


发表时间:2014年10月1日


影响因子:5.477


摘要介绍:来自日本东北大学、Kazusa DNA研究所、岩手大学、日本国家蔬菜与茶科学研究所和志贺植物育种试验站等5家日本科研院所合作完成的萝卜基因组研究,文章的第一作者是日本东北大学农业科学研究生院的Hiroyasu Kitashiba,通讯作者为日本东北大学教授北野武西(Takeshi Nishio)。


由于芸薹属及萝卜在内的相关物种的基因组经历了基因组重排,因此很难基于已报道的白菜(Brassica rapa)基因组序列进行功能分析,因此该研究进行了萝卜的基因组测序。通过NGS获得了一株萝卜自交系植株的191.1Gb的短reads序列,而且用BAC-end序列构建了76,592条>=300bp的scaffolds。最后得到了402Mb的全基因组草图序列,覆盖了预估基因组大小的75.9%,并预测出其中包含61,572个基因。随后使用221个SNP标记和768个PCR-RFLP标记以及先前研究产生的746个标记一起构建一个连锁图谱。该图谱进一步跟另一个主要由EST-SSR标记构建的萝卜连锁图谱组合成一个2,553个DNA标记、1,166 cM的高密度整合图谱。共分配1,345条scaffolds到连锁图谱上,涵盖了116.0Mb,用2,880对引物扩增的批量PCR产物通过NGS测序并鉴定了8株自交系中的SNP。

内容解析

研究问题:

  1. 萝卜基因组的大小和序列内容

  2. 萝卜基因组中所含的基因数目与分类注释

  3. 萝卜基因组不同区域的SNP密度

  4. 萝卜的高密度连锁图谱

  5. 萝卜基因组与白菜基因组的异同

  6. 其他萝卜品系的SNP


研究难点:在众多萝卜品系中选择合适的植株来做denovo测序组装和连锁图谱构建,特别是利用F2群体和scaffold-end标记来验证基因组组装的正确性是一个创新性方法。连锁图谱构建整合了多种类型和来源的数据,最终形成了一个包含2553个标记的高密度连锁图谱,为萝卜与白菜之间的共线性分析提供了坚实基础。


研究方向:

  1. 萝卜De novo基因组学研究

  2. 萝卜遗传连锁图谱研究

  3. 萝卜个体重测序,多品系分析

  4. 萝卜与白菜比较基因组研究


研究成果:

1. 在这项研究中,研究人员分别对Aokubi进行了全基因组高深度测序,并组装得到较高质量的基因组序列图谱。组装结果为402Mb(记为RSA_r1.0,scf N50=46.3kb,75.9% of whole genome 530 Mb),并用随机挑选scaffold-end连锁标记来分型验证表明误组装率很低。


2. RSA_r1.0包含61,572个基因(45,002个完整和16,570个partial),其中有15,545个转座子基因和3,404个假/短基因。萝卜有1,335个tRNA基因,跟B.rapa数目类似,而是拟南芥的两倍。所注释萝卜基因集覆盖了RadishBase库中unigene序列的98.9%。RSA_r1.0中的重复序列总长为107.2Mb,跟B.rapa基因组中的差不多,而比拟南芥大很多。已知散在重复序列中,copia-和gypsy-型最常见。跟另外4个近缘种一起进行基因家族分析,得到24,188个萝卜基因家族,其中包含6,110个五物种共有家族和8,759个萝卜特有的基因家族;特有基因家族比例36.2%远高于B.rapa的15.6%和拟南芥的16.2%,表明萝卜的特有序列更丰富。


3. 通过对Sayatori进行28x的重测序鉴定了萝卜的全基因组SNP。跟RSA_r1.0相比,鉴定了1,137,732个候选SNP,其中基因区500k个、基因间区637k个,从而SNP密度分别为1/155和1/116,转换颠换比分别为1.3和1.4。


4. 构建了萝卜的一个高密度DNA标记连锁图谱。用Sayatori和Aokubi为亲本构建了一个189株个体的F2群体。基于unigene库和前面两亲本间SNP设计引物对并扩增测序得到275个可用标记。用JoinMap4.0将之跟先前发表的746个标记数据整合,得到954个标记的遗传图谱。进一步对189株F2个体中的29株进行选择作图,新增了768个标记。进一步与另一个已发表连锁图谱进行整合,利用了其中的12个共同标记和37个可用新标记,最终得到2,553个标记、总长1,165.8的连锁图谱。


5. RSA_r1.0的scaffolds共有1,345条(占萝卜基因组的21.8%)挂载到整合的连锁图中。共线性比较作图分析表明,共同祖先经历了基因组三倍化的两物种白菜和萝卜之间有49个共线性区域。例如,萝卜的R3和R8分别显示出几乎完全共线性于A3上部和整个A8。这些共线性表明这些染色体区域很少发生重排。另一方面R5和R6等其他连锁群显示出很复杂的基因组共线性,说明在WGT后,萝卜中可能发生了多次染色体重排。


6. 研究人员对萝卜的另外四个自交系进行了SNP鉴定。品系间SNP数从最少的2,066个到最多的3,568个。这些发现为萝卜开展QTL分析等分子遗传研究提供了重要资源。


7. 构建了萝卜基因组数据库http://radish.kazusa.or.jp,包含上述草图基因组、基因注释、SNP等数据。相关原始测序数据已上传到DDBJ。


研究亮点:

  1. 用Scaffold-end连锁标记分型,证实了所得基因组组装错误率很低。

  2. 萝卜的物种特有序列远比白菜、拟南芥要丰富。

  3. 用多态性较高的两个品系构建F2群体并整合已发表数据得到萝卜的高密度连锁图谱。

  4. 相比于白菜、拟南芥,萝卜在共同祖先的WGT后经历了更多的染色体重排。


研究方法


研究对象:

6个栽培萝卜品系Sayatori 26704、Aokubi S-h、Yumehomare、Sakurajima、Nishimachi-Risou和自交系N1-3;Sayatori x Aokubi的F2群体(189个个体);已发表的萝卜遗传图谱;已发表的萝卜unigene数据


所用软件:

PRINSEQ 0.19.5—Illumina reads trimming、Cross_match——Sanger reads低质量与污染过滤、Trim2——Sanger reads trimming、Blast——细菌、叶绿体、线粒体比对、SOAPdenovo 2r223——基因组组装、GapCloser1.10——基因组补洞、SSPACE2.0——基因组scaffolding、Augustus 2.7+TAIR10——基因预测、Hmmscan+GyDB——TE判定、BLASTP,InterProScan,Map2slim,BLAST——功能注释、CD-hit——基因家族聚类;RepeatScout,RepeatMasker,SciRoKo——重复性序列分析;Bowtie 2 和SAMtools——SNP discovery、MapPop 1.0——选择性作图、JoinMap 4.0——连锁图谱构建、MapChart——连锁图可视化、SEQUENCHER version 4.7——Unigene比对、MergeMap——连锁图谱合并、BLAT、BLAST——scaffolds锚定到连锁图上、同源比对、EXCEL——同源共线性点阵图


所用数据:

1. Sayatori 的Illumina小片段和大片段、BAC-end测序

2. Aokubi的重测序数据

3. 四个品系Yumehomare、Sakurajima、Nishimachi-Risou和自交系N1-3的批量PCR测序分型数据

4. Sayatori x Aokubi的F2群体(189个个体)的批量引物PCR测序分型数据和PCR-RFLP数据

5. 已发表的萝卜连锁标记数据(746个)和遗传图谱(832个标记)

6. 已发表的萝卜unigene数据(85083个unigene)


所用数据库:

Repbase、GyDB、NCBI nr、TAIR10、RadishBase、InterPro、GO、KOG、Raphanus sativus Genome DataBase等数据库


创新方法:Scaffold-end连锁标记分型,用于验证组装错误率


实验过程:

基因组测序:用CTAB法抽提总基因组DNA,然后进行分型和denovo Illumina测序;

PCR分型:用批量引物做PCR后,对bulked PCR产物测序。

研究结果


图1.五个物种(萝卜R.sativus,拟南芥A.thaliana,白菜B.rapa,甘蓝B. oleracea和野萝卜R. raphanistrum)的基因家族Venn图。每个单独的色块中标明了基因家族的数目,物种名称下方标记了输入给软件的基因总数。R. sativus (RSA_r1.0), A. thaliana (TAIR10)和B. rapa (ver. 1.2)为基因组数据,而B. oleracea 和R. raphanistrum为EST-unigene。


图2.五个物种之间的KOG分类比较:R. sativus, B. rapa, A. thaliana, R. raphanistrumB. oleracea



图3.萝卜R.sativus(水平)和白菜B.rapa(垂直)的点阵图。分配到萝卜连锁图上的scaffold所含基因的所有基因组序列和白菜基因组的所有基因对应序列进行了相互BLAST比对。E-value低于1e-100的白菜基因被认为是共线性同源物,相应的点被画在图中。基于连锁图谱总长和基因组大小,Scaffold之间的遗传距离被转化成物理距离。轴表示对应基因组所有染色体串连在一起。方格表示染色体边界。


表格解读


表1.萝卜基因组组装结果主要指标统计


表2.萝卜基因组基因注释结果汇总统计



【引用格式】

Kitashiba H, Li F, et al. (2014). " Draft sequences of the radish (Raphanus sativus L.) genome." DNA Research 21(5): 481-490.


点击文末“阅读原文”查看文献原文



撰稿:大项目部-王崇志

编辑:市场部



近期热文

华大基因质谱培训班,首站北京get!

动作要快,姿势要帅,华大生日礼送啦!

这4个问题,不仅帮你绕过遗传图谱的坑,还能为文章加分!

免费微课|不可不知的RNA研究技术细节

BGISEQ-500助力乳腺癌研究新突破:从阻止癌细胞转移开始

【文章解读】系统的ctDNA分析揭示早期肺癌的进化

样品“戴套”更安全

靠数据质量带节奏,只服BGISEQ-500转录组!

华大科技宣布与基因帮达成全面战略合作

表达谱芯片没告诉你,在这12个方面RNA-Seq完胜!

华大基因通过宏基因组学揭示中国克罗恩病患者的肠道微生物特征

关于联合保护中国人类遗传资源的倡议书

众志成城共护人类遗传资源

7000次实验得出的单细胞研究7步法,你真的不看吗?



请继续关注“华大科技BGITech”公众号,

科技君将一如既往地为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存